通往具身智能之路 | 峰瑞报告 37
过去的一年多时间里,在大模型浪潮持续滚烫的同时,具身智能赛道似乎也步入了快车道。
多家科技公司推出标志性的产品:Tesla 旗下的机器人部门发布了 Optimus Gen2,能够执行非常灵巧的柔性操作;Stanford Mobile ALOHA 机器人可以自主完成炒虾任务;Google发布的 RT-2实现大模型端到端任务理解和操作;更有数家如 Figure 这样的创业公司拿出了各自的阶段性成果,这都让我们不禁想问一句:具身智能真的快要到来了吗?
具身智能到底是什么? 是哪些技术的进步,驱动着具身智能发展到了今天的水平? 大模型给具身智能带来了什么? 具身智能之路还有多远?人形机器人是未来的终局吗? 在具身智能的技术演进路径中,创业者还有哪些机会?
你如何看待具身智能的当下和未来?欢迎在评论区和我们聊聊。
截止至5月31日17:00,留言最走心的3位读者将获得峰瑞行研手册一份和《这就是ChatGPT》一本。
具身智能(Embodied AI),即具象化和形象化的AI,根据中国计算机学会给出的定义,具身智能是指一种基于物理身体进行感知和行动(Embodied)的智能系统(AI),其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
具体到具身智能的技术架构,我们按照行业共识可以将它拆解成三层来理解。最底层是硬件的本体,我们可以将其类比成人的身体,除了肌肉、骨骼,还包括感知器官(传感器)、手足(执行器)等等。再往上一层是控制运动的功能,相当于人的小脑,最上面一层就是大脑,是我们负责思考来进行规划决策和环境理解的能力。
在通用人工智能(AGI)的通用测试中有一个“咖啡测试”,由苹果联合创始人史蒂夫·沃兹尼亚克(Steve Wozniak)提出,来衡量机器人是否拥有与人类同等的执行任务质量。在这个测试里,机器人要在没有特定预编程辅助的前提下,进入一间陌生的房间,找到咖啡机,拿出杯子,煮一杯咖啡。
对人类来说非常普通的任务,放在机器人身上却非常不容易。首先,机器人需要拥有理解环境的能力,能够识别环境里哪些物品与“煮一杯咖啡”有关,并把做咖啡这个任务进行拆解,这些是大脑的能力。小脑接收到这些任务,需要做规划控制,包括移动路径的设计,比如用什么动作和姿态来拿到杯子,以及如果末端是个灵巧手或者夹爪,应该以什么样的姿势来完成执行。
总体而言,具身智能的技术架构,就是由“大脑”这一层来做环境和任务的理解,并进行决策和拆解任务,由“小脑”这一层来规划和控制,再由“本体”这一层执行任务。当然,这个过程中还需要传感器的数据来帮助“大脑”和“小脑”更好地去理解和控制“本体”。后面我们会再就这三层架构进行具体分析。
▎连接着虚拟世界和物理实体的“小脑”
小脑的工作也分两部分,一个是做规划,一个是做控制,控制的最终执行会交给本体去完成。
规划,简单来说就是根据任务要求来输出运动(或者操作)的最优路径。简单的移动、抓取等任务,可以通过数学方法来求最优解。但现实世界里,智能体要完成的任务往往是复杂的,因此规划过程可能会受限于许多约束条件(机器人动力学,环境因素等),也涉及同时达成多个目标的最优化问题(最短、最快、最省能、最安全)。
而规划完成后,如何通过操作本体不同的关节,把任务按照设想的路径执行出来,就是控制层面要做的事。
目前行业里有比较主流的两种控制算法:MPC(模型预测控制)和WBC(全身控制)。
MPC是根据预先假设的模型,依据本体当前的状态来预测其下一秒或者说未来的状态,并把这个输出的未来状态与期望中的未来状态作比较,以此来优化控制的结果。这种方法受限于模型精度和状态感知能力,所以传感器维度越多越精准,模型预测也会越准。
WBC是将机器人的全部关节作为一个整体进行优化控制。这种算法能够实现更自然更灵活的运动,擅长处理多自由度、非线性、高维度的机器人系统。不过,它也受限于计算复杂度(实时性)和模型精度等。现在四足、双足机器人的运动控制大多是同时用到了MPC和WBC这两种算法。
那怎么能找到更精准的模型呢?目前业界的主要迭代方向是强化学习,简单来说就是通过不断的试错和反馈来自主学习控制策略。
强化学习最广为大众所认知的应用是 AlphaGo——通过深度强化学习在围棋领域战胜最强的人类。但围棋毕竟是一个相对封闭的场景,有非常明确的规则,现实世界里,智能体面临的物理世界肯定是非常复杂和多样化的。
那么,在复杂、不确定和动态的环境里,我们怎么能够通过强化学习去训练出一个好的模型,例如,学习如何在不稳定的地面上行走,或者如何在不同的光照条件下识别物体,是学界和产业界都在努力突破的一个方向。
强化学习的成功一方面依赖于设计合适的奖励函数,这需要一定的经验。另外强化学习通常也需要大量的试验和数据才能学到有效的策略,这也可能花费大量的时间和计算资源。
一种比较有效的策略是,在模拟或者说仿真环境中试验和学习,然后把学到的策略用到真实环境中(Sim2Real),但目前这种方法能应用的场景还比较有限,因为仿真环境的构建成本太高,且与真实物理世界差距很大。
另一个重要的演进方向是模仿学习(Behavioral Cloning),它让机器人通过观察和模仿人类或其他机器人的行为来学习新技能。模仿学习的好处在于,它可以让机器人快速地学习新任务,还能避免在学习过程中进行大量的试错,尤其对于很多复杂技能,如协作或灵巧操作特别适用。
之前很火的斯坦福机器人,其实就是一个大型的模仿学习平台。机器人通过大量学习人的操作的案例,就能够以一定的成功率自主完成一些特定的任务。但模仿学习目前仍被认为泛化性不足,且依赖大量数据,这构成了制约它发展的主要原因。目前业界的几个主流方法,比如遥操作、动作捕捉、视频、仿真/合成数据等都有各自的问题,也许未来会走向融合。
总结来讲,强化学习更适合用在移动类的执行,模仿学习更适合用于操作类的执行,但技术路线远未收敛,也不能一概而论。
▎“大脑”与大模型
大脑所做的工作其实就是理解环境、理解任务,再将任务拆解成不同步骤。具身智能区别于之前的自动化设备的地方在于,它拥有处理多任务、复杂场景的能力,还能够实现感知和任务决策的智能化和通用化。
以 Google 在 2023 年 3 月推出的 PaLM-E 大模型为例,人可以通过自然语言给 PaLM-E 模型输入一个任务,它通过自主摄像头做环境感知,最终以文本形式给出任务指令。但是它还只能实现文本形式的任务指令,还不能直接去控制机器人,控制层面还是需要“小脑”去完成。
而 Open AI+Figure01的那个视频展示的成果,也是 Open AI 的大脑加上 figure AI 的小脑与本体这两者的结合。真正惊艳到业界的,可能是 figure 01 展现出来的执行能力,比如拿起苹果这件事,它能以200Hz频率生成运动规划轨迹,再以1000Hz频率对全身关节力矩进行控制。
那么问题就来了,大脑的能力能否进一步下探到“小脑”的一部分功能呢?大模型能不能做运动规划?
在具身智能的大脑迭代这个方向,谷歌是走得比较靠前的。Google 推出的 RT-1 模型是Transformer架构的端到端小模型,采用模仿学习的方式进行训练,输入自然语言和图像,即可输出机器人运动指令,这个指令其实可以具体到底盘的下一个坐标的位置,以及机械臂下一个末端的位置和角度。但是 RT-1 模型的局限在泛化能力,而 Google 后续推出的 RT-2 模型大大提升了泛化能力,但实时性相对差,只能实现 1-3 赫兹的推理,也就是一秒钟只能给出一个或三个指令,在运动规划里是不够用的。此外,它只能云端部署,成本高昂,目前还只能停留在 demo 阶段。
但它们也给了我们一个启示,就是大模型也许暂时不适用于在运动规划中发挥作用,可能还是需要使用一些小模型。
我们也看到了有一些公司在做相关的工作,比如峰瑞早期参与投资的Covariant就在今年3月发布了一个80亿参数的小模型,可以实现图像和语言等多模态输入的端到端的运动规划的任务,但它只在特定的场景下做抓取和放置这类任务。好处是,这是工业场景里比较高频的需求,且80亿参数的小模型也很适合在本地部署。
那大模型究竟可以给具身智能带来什么?除了提升“大脑”的能力,也就是环境感知理解、自然语言任务理解和任务决策能力,还能够提升部分“小脑”的能力,比如端到端运动规划能力,但受限于运动复杂度(灵巧手)、任务通用性(+语言)、延时要求、算力和模型规模。
举个日常生活的例子,比如在人学打网球的初期,其实大脑参与得挺多,思考这个动作到底应该怎么做,用怎样的姿势挥拍才更有效,当你做了足够多的训练之后,这些动作就会变成人的肌肉记忆,大脑参与得就变少了。
当然,还有一些学者如李飞飞在试图通过大模型来构建面向具身智能的三维世界模型,以解决终极的泛化和通用性问题。这也非常值得期待。
把具身智能的三层技术架构演进讲完之后,我们会发现:
本体在工业机器人和无人驾驶产业的带动下整体成熟度比较高,但仍有两个方向值得关注:
更高精度、低成本的状态感知传感器
能执行更复杂任务的末端执行器
大模型在环境感知理解和任务理解决策上的能力已经被证明,而这方面能力的进一步提升有赖于多模态大模型的持续演进;当然大模型也已经在小脑的规划能力上展现潜力。
所以如今最核心的瓶颈在“小脑”,它既是数学优化与数据驱动的交叉点,又是软件和硬件技术迭代的交叉点,更是虚拟与物理实体的交叉点。这么一来,“小脑”就成为最难的地方,同时,也是最有机会之处。
小脑的核心是规划+控制,无论是做模仿学习还是强化学习,做好规划控制算法的核心都是数据,相比起能利用海量互联网数据的大语言模型,具身智能训练能用的数据量就小得多。
那下一步的挑战就在于,如何采集足够多的数据,帮助智能体提升“小脑”能力。目前提升“小脑”能力的几条主要技术路线包括遥操作、仿真环境、观察学习人类、合成数据。
目前,基于海量图文数据快速迭代的(开源)多模态大模型与产业化带动的机器人本体硬件和传感器的成熟,一定程度上降低了具身智能的实现门槛。但受限于硬件成本、算力、采用速度、通用性、成功率等种种因素,具身智能行业整体还处于发展早期,以Demo和科研成果展示为主,商业化落地较少。
以大家比较熟悉的无人驾驶、人形机器人为例。这两个概念早在十年前就已经有了,至今大家也还在探索它们的商业化落地。无人驾驶不追求通用性,但对成功率有极高的要求。人形机器人追求的是通用性,但在现实里实现泛化的成功率较低。
因此,在短中期,我们需要寻找一些能兼顾成功率和通用性的落地场景,与此同时平衡好硬件成本、算力、响应速度等多方面的因素。往长期看,我们相信基于短期积累起来的数据,未来有机会演进出新的算法架构,可以拉升具身智能的价值曲线,并解锁一些新场景。
在技术层面,新式传感器、末端执行器和“小脑”能力的提升都可能带来产品的飞跃,相应的技术突破将是我们迈向具身智能服务人类的未来的关键步伐。
具身智能在物理世界任务场景的多样性,使得这个方向有机会容纳较多创业公司参与进来,在这个方向,大厂的优势也不那么明显,因为在具体的研发进程中,数据是核心,产品能否实现场景——数据——算法迭代的闭环至关重要。
对于中国市场而言,持续发展的供应链成本效率优势和第二第三产业快速增长的场景需求,或将成为促进具身智能蓬勃发展的持续性机会。甚至在一定程度上,基于中国的产业结构与供应链基础,具身智能在中国市场的适用性,会高于大模型。
你如何看待具身智能的当下和未来?欢迎在评论区和我们聊聊。
截止至5月31日17:00,留言最走心的3位读者将获得峰瑞行研手册一份和《这就是ChatGPT》一本。
▲李丰对话连文昭:大模型的想象与泡沫,机器人的「不可能三角」与未来
▲ 我们距离“头号玩家”还有多远?从苹果Vision Pro看XR的技术挑战|峰瑞报告33
▲ “站得高,看得远”:卫星通讯太空竞赛的由来与未来 | 峰瑞报告34